iT邦幫忙

2024 iThome 鐵人賽

DAY 5
0

由於我們的目標是在開發生成式 AI 產品,所以會更著重在前述所提到的 decoder-only transformer models,而這也是許多現在知名生成式 AI 模型,如 GPT, Llama, Gemma, Mistral 採用的設計架構。

那不同的模型差異在哪呢?主要是參數量、訓練資料集和優化策略。
參數量越大,模型的生成能力通常越強,但需要更多的計算資源;訓練資料集的來源和質量直接影響模型在不同語境下的表現,比如 LLaMA 可能使用更多來自社群的數據、Google 的模型可能使用更多來自 Google 搜尋、雲端工具的廣泛資訊;而優化策略則強調特定任務,如 LLaVA 更專注於視覺處理、Claude Sonnet 則更強調 coding 功能,而在對話生成的任務上,GPT 系列模型 表現尤為突出。


大致認識了 LLM 架構與模型之間的差異後,我們回到開發場景,一般來說,我們可以從幾個面向挑選欲所使用的模型:

  1. 模型的取用
    a. 如果模型供應商本身就有提供服務在雲端上,如果是個人使用通常是這種方是,模型的效能會比自行架設好上許多,然而資料會有向外流出的風險,而 API 的計費和使用上限又依照各家公司有所不同。若模型是透過 API 串接 Open AI、Azure、Google 等平台則屬此類。
    b. 如果要自行架設模型,Hugging face 上有提供各種各樣的模型,然而硬體設備是否可以支援? 通常受限於資源限制故表現效果較差,不過有較高的安全性。
  2. 使用場景
    a. 在繁體中文或其他語言上的表現
    b. 是否支援圖片與影音處理
    c. 單次輸入的字數上限
    d. 最高可以同時接受多少次請求

模型表現參考指標

以下整理了三種主要參考方向,可以作為模型選擇的實際依據:

  1. SOTA-Language Models
    全名 State of the Art,代表最先進的技術。這個網站有點像 Wiki,使用者都可以上去編輯內容,將各個領域所看到最新的數據、模型、評比結果放上去,比如上面的連結就列出了很多 LLM 模型和演算法,點進去之後也可以看到模型的相關研究結果,比如這篇就比較了不同模型在指定數據集理解長篇文章的排名。
  2. LLM leaderboard
    這裡就有由不同組織、依據不同項目作的各項評比,以下整理了一部份:
    • LMSYS Chatbot 競技場-由 Large Model Systems Organization 所建立,蒐集了大量使用者的盲測比較下來的結果,盲測方法推測就是左上角 battle 的方式,輸入問題之後,系統會隨機由兩個 LLM 來回答,接著使用者可以點擊哪個模型的回應更理想,有興趣的話也可以點進去玩玩看。
    • Artificial Analysis-其他的模型資訊,這個網站就整理得非常清楚,有不同情境下(如:一般用途、文字轉圖片等等)的效能、速度、價格等比較,而點進模型頁面,也可以看到該模型的所有相關資料。
    • Huggingface 中文模型比較-如果要看中文的模型比較,可以參考這個。
    • EQ-Bench-這個就蠻有趣的,比較各個模型理解複雜情緒和社交互動的能力。
    • Exploring LLM Leaderboards-這篇 Medium 文章也介紹了其他多種不同的 Leaderboards。
  3. 直接操作
    其實不論其他人的比較結果如何,最重要的還是模型目標情境下的能力,因此實際模擬操作是很重要的。而上述所提到的 LMSYS 也提供了可以直接選擇模型對話的頁面LM Studio則是提供簡易的軟體介面,供使用者直接下載並取用開源模型,Coze則是可以選用其他人架好的 GAI 服務。

上一篇
[Day4] Token 之間的關係如何衡量-Embedding & Vectors
下一篇
[Day6] LM Studio-一鍵架好你的地端 Chatbot
系列文
從系統設計切入,探索 GenAI 在企業中的實踐30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言